GeneDock HG Somatic WES 手册

Part 1 产品介绍

1. GeneDock HG Somatic WES 人全基因组体细胞突变标准化分析服务用途

本流程使用BWA、Sentieon软件,对成对的外显子组(或者panel)数据,进行从fastq到vcf的分析(包含SNV和Indel),同时对原始序列 (FASTQ) 和比对后序列 (BAM) 的基本计量参数进行统计。

外显子组测序(Whole exome sequencing,WES)是指使用二代测序技术(NGS)对外显子的所有区域进行测序。相比与全基因组测序,全外显子组比进行全基因组序列测序更简便、经济、高效,其目标区域覆盖度也更高,便于变异检测。而成对(matched tumor-normal pair)的样本可以鉴定出体细胞突变(somatic mutations),常用于癌症研究领域。

WES_Somatic_BWA-Sentieon2_ContainRef_stat :采用Sentieon软件TNhaplotyper同时检测SNV和INDEL(与MuTect2一致)。

GeneDock的生信团队与数据计算团队共同努力,在数据传输优化、分析算法选择、计算资源选型等方面都进行了优化,并对分析关键步骤做了分布式处理,在保证同GATK MuTect2鉴定结果准确度一致的基础上,大大降低了用户的分析成本,缩短了运行时间。

Benchmark测试结果(http://biorxiv.org/content/biorxiv/early/2017/03/10/115717.full.pdf)显示,Sentieon软件TNseq在保证同GATK MuTect1/MuTect2软件鉴定结果准确度一致的基础上,比GATK MuTect1/MuTect2速度提升了约10倍(相同的硬件设备)。

更多信息:Sentieon官方网站:《 Sentieon TNseq, for consistent and confident somatic variant detection》

2. 整体步骤:

整体可分为3个部分:

1. 序列比对(Mapping):使用trimmomatic软件进行前处理,使用bwa mem进行比对,使用samtools对bam文件进行排序、格式转换等操作。

2. Bam文件前处理(Bam processing):使用Sentieon软件对重复序列进行处理(markdup/rmdup)和Base quality score recalibration(bqsr)。

3. SNV和INDEL检测(SNP and INDEL calling):1)WGS_Somatic_BWA-Sentieon1-Strelka_ContainRef流程:使用Sentieon软件的TNsnv检测SNV变异,Strelka软件检测INDEL变异;2)WGS_Somatic_BWA-Sentieon2_ContainRef流程:使用Sentieon软件的TNhaplotyper对SNV和INDEL同时进行检测。

4. 对原始序列 (FASTQ) 和比对后序列 (BAM) 的基本计量参数进行统计:原始序列 (FASTQ)统计包括Reads数目、N所占比例、低质量碱基的比例、Q20、Q30、与Adaptor相关的reads比例,以及质量值和GC含量图等。比对后序列 (BAM)的统计包括:靶标区域所占比例、
平均测序深度、重复区域比例、比对率、不同X数reads所占比例,以及目标区域测序深度图等,具体图表格式可以参考GeneDock 博客

流程中步骤与GATK MuTect2的Best Practices基本一致。

关于其中使用的knowsites输入文件也与GATK软件一致,可以参考这个链接

【运行时间】

2018年3月29日genedock_wym测试3.90GB * 2 + 3.90GB * 2 的fastq.gz文件。北京域:3.5小时。

由于全外显子组数据较全基因组数据要小,本工作流采用利用“fastq按行拆分、bam不拆分”的原理,使得运行时间较短,运行成本也较低。

【准确性评估】

本流程步骤与GATK MuTect1/MuTect2的best practice基本一致,准确性评估请参考这个链接

【注意事项】

  1. 本流程只适用于成对样本。

  2. 本流程需要是双端测序。

  3. 流程中会使用GATK官方推荐的reference、knowsites输入文件,下载自Broad的FTP

  4. 如果输入fq文件是多个lane的,请注意read1和read2的顺序要一一对应。

关于此流程有任何问题,请您随时与我们的工程师联系。

Part 2 GeneDock HG Somatic WES操作教程

1.查看工作流详情:进入后台后,点击左侧工具栏中的工作流,在我的工作流标签中选择public,可以看到WES_Somatic_BWA-Sentieon2_ContainRef_stat工作流,点击“详情”,查看该工作流的介绍,包括:【概述】、【基本背景】、【整体步骤】、【运行时间】、【准确性评估】、【注意事项】等(如图1,图2);

hg_somatic-2-1

(图1)

hg_somatic-2-2
(图2)

2.设置输入、输出及参数,运行工作流及查看结果同HG Somatic操作教程

Part 3 参数解释

本工作流中使用的工具及参数与HG Somatic 工作流一致。